查看原文
其他

60亿美金融资,发全球最强大模型Claude 3,多模态更强,更便宜,超长100万token

到底哥 AI鲸选社
2024-11-25

作者:到底哥

图片来源:Anthrop

就在大家认为沉默一年的Claude,有点拉跨的时候,Anthrop公司发布了最新的Claude 3大模型产品,宣称多项能力超越ChatGPT4。
Claude 3 模型系列包括三种最先进的型号(按功能升序排列):Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。
优秀的地方在于,每个后续型号都提供越来越强大的性能,允许用户为其特定应用选择智能、速度和成本的最佳平衡。
很多人可能不知道Claude的背景,这家公司是OpenAI的创始团队成员出来做的竞争对手公司。2023年初,谷歌、亚马逊联手投资Claude 60亿美元,前者20亿美元,后者40亿美元。
当时Claude展现了一些特性,Claude 能够一次处理高达75,000字的内容,而 ChatGPT-4 的极限为25,000字。
不过,当时Claude最大的特色是免费,且能使用多家大模型进行对话,所以当时国内很多AI培训课程都是使用的Claude这款产品。
当由于一年时间的沉寂,很多人都忘了这款产品。3月5日,这款大迭代产品重磅袭来。它在本科水平专家知识 (MMLU)、研究生水平专家推理 (GPQA)、基础数学 (GSM8K) 等。它在复杂任务上表现出接近人类水平的理解力和流畅性。
通过看Claude3在分析和预测、细致内容创建、代码生成等多方面与同行模型在性能基准 上的比较:

 

接下来,我们结合官方介绍以及网友的测试,来看看这款大模型产品到底实力几何。

 

 更快的相应速度和更少的拒绝

Claude 3 的Haik模型是智能类别市场上速度最快且最具成本效益的型号。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k Token代币)。
与前几代模型相比,Opus、Sonnet 和 Haiku 拒绝回答接近系统护栏的提示的可能性明显降低。如下所示,Claude 3 模型对请求表现出更细致的理解,能够识别真正的问题,并且拒绝回答无害提示的频率要少得多。

复杂数学问题测试:

by:EOL印老师

 强大的多模态视觉能力

 
Claude 3 型号具有与其他领先大模型的复杂视觉功能。他们可以处理各种视觉格式,包括照片、图表、图形和技术图表。其中一些客户的知识库高达 50% 以各种格式编码识别,例如 PDF、流程图或演示幻灯片。
 以下是网友上传的图片测试。这道题对于GPT4来说也不难。
但是如果说Claud3对 PLC梯形图也能读呢?

by:EOL印老师

 大大提高准确性

Claude 3 将答案分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型表示它不知道答案,而不是提供不正确的信息。与 Claude 2.1 相比,Opus 在这些具有挑战性的开放式问题上的准确性(或正确答案)提高了一倍,同时也减少了错误答案的水平。
以下是一个容易出现幻觉的问答:

by:杨轲Yangke



 超长上下文记忆能力

Claude 3 系列型号在发布时最初将提供 200K 上下文窗口。然而,所有三种模型都能够接受超过 100 万个代币的输入。下图是输入了PDF文件后的问题:

by:杨轲Yangke

据了解,Claude 为了有效地处理长上下文提示,模型需要强大的回忆能力。“大海捞针”(NIAH)评估衡量模型从大量数据中准确回忆信息的能力。Claude 3 Opus 不仅实现了不错的召回率,超过 99% 的准确率。
很多人认为,Claude 3以相当大的优势,击败了GPT4,于是有了以下的搞笑图。

 
大模型又出现新的全球霸主,大家预测很快又会有更强的模型出现:
#GPT4 .5 将于本周发布;
#LLaMA3 4月推出 @Meta
#Gemini2 5月 by @Google
#GPT5 10月 by @OpenAI
轰轰烈烈的大模型之战又开始了。

进入星球领取Claude3最新技术PDF


复活亲人?淘宝九块九就可以!你愿意吗?

从0到月入2万美金,有人用AI在TikTok上爆火


继续滑动看下一个
AI鲸选社
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存